#juegos de markov parcialmente observables

Arrepentimiento minimax-óptimo en juegos de Markov parcialmente observables

Algoritmo optimista logra arrepentimiento minimax-óptimo en POMG. Complejidad O(√T) con dependencia de la dimensión de Eluder.